English

实现图书馆数字化哪种方法更好

1998-05-06 来源:中华读书报  我有话说

将图书进行数字化和网络传输,是图书馆界的一种理想和紧迫任务,但随着工作的深入进行,人们已经逐渐认识到这是一件费用极高并且浩瀚渺茫的工作,虽然有不少努力,但还没有十分成功的例子。我们北京超星电子技术公司也进行了自己的尝试。在北京图书馆、瑞德集团和北京电报局的大力支持下,我们在Internet上开通了一个在线图书馆,免费向公众开放网址:http://www.readchina.com/library.半年内将会有15000本图书可供实用。这个图书馆的一个鲜明特点是它采用了Html语言和扫描方式相结合的方法,可以以较少的投入建立大规模的电子图书馆。虽然扫描方式目前没有受到人们的足够重视,我们却认为它将是未来图书馆进行数字化的一种主要方法。

图书馆数字化可以有两个含义,一种含义是将原有的图书资料转为数字化存储,另一种含义是依靠多媒体手段对某个学科或专题知识进行综合和提高。目前第二种方式从文献资料角度上难以替代图书馆的主要功能,多用于欣赏、教学和娱乐等领域。我们这里所谈的图书馆数字化是指前者。

综合起来,图书馆数字化应实现的主要目标应当是:

1、将原始的图书资料从纸张存储改为数字化存储,以利于保存、阅读和网络传输。

2、便于检索调阅。

3、尽量保持原来的排版样式,原文原貌,特别是要避免在转换过程中的文字错误。

4、争取做到投入少,时间短,内容完整,形成规模。

目前大多数图书馆数字化采用的是文字录入的手段。图书一旦通过文字录入实现数字化,使用起来是很方便的:可以进行任意检索,包括全文检索,在几秒钟内可以查到任何所需的内容,可以任意摘录其中的文字,一张光盘可放上亿字等等。

但我们在获得这些种种好处的同时,会发现我们要付出的代价同样也是巨大的:且不说大量的录入费用,更困难的是文字校对和重新排版,图片和表格的安排等等。其工作几乎等同于重新印刷出版一本新的图书!此外,我们又如何面对可能或者说必然要出现的错误?也许我们需要反问自己:真的有必要为了图书馆电子化将所有的图书重新印刷出版一次?特别是对那些可能有用但更可能没用的过时的大量文献资料,这个问题会显得更加突出。

还有一种方法可以简便地实现图书的数字化,那就是扫描。长时间以来这种方法被忽视了,原因是从技术角度上这种方法有一些致命的缺陷,主要表现在以下几个方面:

1、扫描方式不如文本方式清晰。

2、不能进行全文检索。

3、内容不能加以剪裁利用。

4、存储容量太大,不利于网上传输。

实际上,从技术上深入研究下去,这些问题都能有一个满意的解决。显示不够清晰是普通的显示器分辨率低造成的,我们采取了一种特殊的动态灰度算法,又为扫描图像增添了彩色底纹,可以使显示的效果同于甚至优于文本显示。扫描图书由于存储的是图像,因而不能对内容进行检索。这可以通过加入目录索引和人为建立关键词予以弥补。例如中医药光盘图书馆就实现了所有章节、病症的全文检索。我们将OCR技术引入图书浏览器中,让人随时对书中感兴趣的内容进行识别引用。对图像和表格进行图像剪裁则是扫描所擅长的。扫描图像非常占用空间,我们采用最新的图像压缩标准,可使压缩比提高到30—60倍,一张光盘可以存储2000万字的扫描内容,实际运用中一张光盘最多可存储5000万字的文本文字。由于存储介质极为廉价,扫描与纯文本在存储量上的这种区别几乎没有意义。

攻克了这些技术关后,扫描本身的优点就显得更为突出:保持原文原貌,投入成本和时间少,可以大规模地对整个图书馆或整个专业进行加工处理。我们现在一天可以处理3万页的图书资料,这对于用文本录入来说,是不可想象的。

当然,对文本录入方式也不能完全否定,对一些经典书籍或有特殊作用的书籍,或已经有文本的书籍,还是采用文本形式的好。但对大量的文献加工,我认为扫描是一种更现实的方法。

实际上,相对图书馆数字化的宏伟理想来说,我们的力量毕竟是微薄的,要开展和完成这项事业,需要有国家政府部门的关心和支持,需要国内众多图书馆的参与和努力。如果能有政府部门出面组织和规划,在有识之士的领导下,这也许并不是一件十分遥远的事:所有有价值的书刊都可在网上阅读,宝贵的外文期刊、外文图书能做到馆间交流,如果能尽快实现这一理想,无疑是对中华民族以至人类文明的重要贡献。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有